Логин
 
 
 
 

Статьи и обзоры



 
 
XI Форум Auto-ID & Mobility - решения для бизнеса

Технологии Smart Engines умеют распознавать текст древних документов

04.06.2024

Разработка позволит изучать тексты бумажных, берестяных и серебряных свитков и печатных книг, которые пострадали вследствие естественного старения, воздействия влажности или пожаров и хранятся в особых условиях

Ученые российской компании Smart Engines и ФИЦ ИУ РАН обучили искусственный интеллект извлекать содержимое хрупких свитков, не разворачивая их. Теперь получить восстановленный текст из манускрипта можно нажатием одной кнопки. Разработка позволит изучать тексты бумажных, берестяных и серебряных свитков и печатных книг, которые пострадали вследствие естественного старения, воздействия влажности или пожаров и хранятся в особых условиях.

Российские исследователи применили неразрушающий метод рентгеновской томографии и алгоритмы машинного зрения. Объект, который нельзя разворачивать, помещается в томограф. Затем реконструируется цифровая копия документа, над которой и производятся все дальнейшие манипуляции.

Это первая полностью автоматическая система виртуального разворачивания свитков, не требующая вмешательства человека. Проблему анализа старых свитков с привлечением томографии ученые по всему миру пытаются решить более двадцати лет, предлагая разные подходы с машинным обучением. Вопрос полной автоматизации процесса при этом до настоящего времени не был решен. Обычно человеку сначала нужно подобрать параметры, чтобы запустить работу алгоритмов – это требует немало времени и сил. Затем алгоритмы могут отработать неправильно, если, скажем, слои документа слиплись, и человеку снова придется вмешаться.

Разработка была профинансирована научно-исследовательской компанией Smart Engines и создавалась на базе Smart Tomo Engine – программного продукта для томографической реконструкции.

“Мы надеемся, что наша разработка позволит сделать шаг на пути исследования и сохранения культурного наследия и откроет новые возможности для историков, археологов и других специалистов в области гуманитарных наук. Сейчас мы активно ищем партнеров для проведения дальнейших исследований", – комментирует генеральный директор Smart Engines, доктор технических наук Владимир Арлазаров.

Для обучения нейросети использовался специально созданный учеными Smart Engines корпус данных, включающий шесть образцов свернутых разными способами документов. На них были предварительно нанесены буквы и цифры разного размера и схемы с различными графическими элементами.

Специально подготовленный датасет опубликован, научная статья будет представлена в августе текущего года на The International Conference on Document Analysis and Recognition (ICDAR) – ведущей международной научной конференции в области анализа и распознавания документов.

Подписывайтесь на наши новости в Telegram: https://t.me/idexpert

Читайте нас на VK: https://vk.com/idexpert_ru


Источник:  Пресс-служба Smart Engines


Рейтинг статьи

Возврат к списку



Материалы по теме:

Статьи и обзоры
Новости рынка и технологий

Продукты автоматической идентификации

Тау Браузер
Тау Браузер
Специализированный браузер для легковесных HTML/JavaScript приложений
Chainway MC21
Chainway MC21
Терминал сбора данных промышленного класса
UHF RFID метка TwinTag
UHF RFID метка TwinTag
UHF RFID метка для маркировки широкого спектра товаров в розничной торговле
DASCOM DC-7600
DASCOM DC-7600
Карточный принтер с технологией ретрансферной печати
Chainway C72 UHF RFID
Chainway C72 UHF RFID
Мобильный UHF RFID считыватель на ОС Android
DASCOM DP-641
DASCOM DP-641
Мобильный принтер этикеток
Chainway MC95
Chainway MC95
Высокопрочный (IP68) мобильный компьютер промышленного класса
RST-BOOKOS
RST-BOOKOS
Настольный UHF RFID считыватель для библиотек, предприятий и складов
UHF RFID метка BiblioTag
UHF RFID метка BiblioTag
UHF RFID метка для маркировки архивных документов и книжных изданий

Все продукты >>>

 
XI Форум Auto-ID & Mobility - решения для бизнеса

Проекты и решения

События

Опрос





Комментарии